Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

https://gyazo.com/ac556a8dc0097b4aca251a866ea6d0e4

通常のV&Lモデルでは, 画像のバックボーンネットワークは言語特徴量を使用しない

そのようなモデルでは, 「画像にりんごはいくつあるか？」などといったVQAタスクすら解けない(可能性が高い)

そこで, SwinTransformerを拡張し, 各ステージで言語特徴量をspatial / channel方向にmixしながら推論していくモデルを提案

タスクは物体検出なので, regトークンを付けて回帰問題を解く

データセットにReferItGameとFlickr30Kを使用